COMtext.SR je projekat razvoja osnovnog skupa resursa i alata za automatsku obradu tekstova na srpskom jeziku, kako za ekavicu tako i za ijekavicu, koji će biti javno dostupni pod licencom koja omogućava njihovu upotrebu u bilo koje svrhe, uključujući komercijalne.
Fokus projekta je na domenima tekstova koji do sada nisu razmatrani bilo u akademskim bilo u komercijalnim javno dostupnim resursima i alatima za srpski jezik, kao što su pravno-administrativni, finansijski, medicinski, itd.
Sa tim ciljem na umu, ovaj projekat okuplja i sinhronizuje širu zajednicu (IT industrija, akademska zajednica) koja će doprineti realizaciji ovog zadatka kroz doniranje stručnih i materijalnih resursa i intelektualne svojine.
Vizija na kojoj je ovaj projekat zasnovan jeste otvaranje širokih mogućnosti za razvoj IT proizvoda baziranih na obradi i razumevanju prirodnih jezika (engl. Natural Language Processing/Understanding - NLP/NLU) – od brže integracije jezičkih alata u postojeće IT sisteme, preko stvaranja uslova za pokretanje startapa koji bi tržištu ponudili nova rešenja, do unapređivanja uslova za istraživanje i razvoj u domenu jezičkih tehnologija.
Želimo da buduće generacije budu u mogućnosti da uređajima oko sebe upravljaju koristeći srpski jezik, da kvalitetnije žive i efikasnije rade zahvaljujući moći računarske obrade i razumevanja prirodnog jezika.
Najbolje rezultate u obradi prirodnih jezika trenutno postižu veliki jezički modeli (npr. BERT, GPT, i sl.), obučeni nad ogromnim količinama neobeleženih tekstova. Međutim, da bi se takvi modeli uspešno primenili na rešavanje konkretnih zadataka, njih je neophodno prilagoditi (engl. fine-tuning) uz pomoć manjih, posebno obeleženih skupova podataka specifičnih za zadatak i domen tekstova koji se razmatra. Projekat COMtext.SR je usmeren upravo na izradu namenskih, reprezentativnih i ekspertski proverenih označenih skupova podataka i njihovo korišćenje za izradu prilagođenih velikih jezičkih modela.
Projekat COMtext.SR je proistekao iz Inicijative za otvorene NLP/NLU resurse srpskog jezika, čiji su inicijatori obavili veliki broj sastanaka i konsultacija u okviru domaće IT zajednice, u kojima je učestvovalo preko 40 organizacija. Na osnovu obavljenih konsultacija, prioriteti za izradu NLP/NLU resursa za srpski jezik definisani su na sledeći način:
Poboljšanje kvaliteta pretrage teksta - ovaj modul ima za cilj poboljšanje osnovne pretrage tekstualnih podataka, što se postiže kroz razmatranje zadataka tokenizacije teksta, određivanja vrsta reči, lematizacije teksta i prepoznavanja imenovanih entiteta.
Projekat COMtext.SR je otpočeo sa fokusom na pravno-administrativni domen tekstova, kao domen koji je od zajedničkog interesa za najveći broj partnera projekta, kao i za ogroman broj državnih institucija i drugih organizacija.
U toku 2023. godine kreiran je prvi korpus pravno-administrativnih tekstova na srpskom koji je ručno anotiran u pogledu morfosintaktičkih odlika (po Multext-East v6 standardu) i lema (osnovnih oblika reči). Izbor reprezentativnih pravnih tekstova različitog tipa (ugovori, presude, zaključci, rešenja, odluke, molbe, žalbe, pravilnici, zakoni, uredbe, statuti, zapisnici, itd.) koji su uključeni u korpus sproveden je uz pomoć advokatske kancelarije Karanović & Partners. U korpus je uključeno 79 dokumenata, koji zajedno sadrže 4762 rečenice, odnosno 105470 tokena. Navedeni korpus je izrađen u paralelnim varijantama za oba izgovora srpskog jezika - ekavici i ijekavici.
U nastavku je dat pregled i poređenje novog COMtext.SR.legal korpusa sa sličnim prethodno izrađenim anotiranim korpusima srpskog jezika iz drugih domena:
Korpus | Broj dokumenata | Broj rečenica | Broj tokena | Domen tekstova | Izgovor srpskog jezika |
---|---|---|---|---|---|
SETimes.SR 2.0 | 176 | 4384 | 97673 | novinski | ekavica |
ReLDI-NormTagNER-sr 3.0 | 3748 | 6899 | 92271 | ekavica | |
COMtext.SR.legal | 79 | 4762 | 105470 | pravno-administrativni | ekavica i ijekavica, odvojene paralelne varijante |
COMtext.SR.legal anotirani korpus je dostupan za preuzimanje u connlu formatu:
Izvorni tekstovi dokumenata iz ovog korpusa, bez pratećih anotacija, takođe su dostupni na sledećem direktorijumu:
Uz pomoć izrađenog anotiranog korpusa, sprovedeno je prilagođavanje modela BERTić na zadatku morfosintaktičkog označavanja pravnih tekstova na srpskom. Tako dobijene varijante modela su dostupne na repozitorijumu HuggingFace:
Takođe su evaluirani i upoređeni različiti modeli i pristupi na zadacima morfosintaktičkog označavanja i lematizacije pravnih tekstova, pri čemu je lematizacija sprovođena uz pomoć prediktovanih morfosintaktičkih oznaka i flektivnih leksikona srLex i hrLex. Evaluirane su predikcije modela kada je tokenizacija potpuno ispravna (gold tokenizacija), kao i kada se za tokenizaciju koristi trenutno najbolji javno dostupni tokenizator za srpski - ReLDI/CLASSLA tokenizator. Korišćene metrike su tačnost (engl. accuracy, ACC) i Word Error Rate (WER). Pored različitih varijanti BERTića, razmotrena je i biblioteka CLASSLA, kao i model SrBERTa, koji je posebno obučavan na pravnim tekstovima na srpskom jeziku. Prikazani rezultati velikih jezičkih modela su dobijeni nakon 15 epoha prilagođavanja. Ovaj repozitorijum sadrži sav programski kod korišćen u procesu prilagođavanja i evaluacije modela. Pored toga, dostupan je i primer upotrebe ovih modela u vidu Jupyter Notebook-a.
Pristup | MSD ACC | MSD WER | Lemma ACC | Lemma WER |
---|---|---|---|---|
CLASSLA-SR (gold tokenizacija) | 0,9144 | 0,0856 | 0,9432 | 0,0568 |
CLASSLA-SR (CLASSLA tokenizator) | / | 0,0983 | / | 0,0739 |
BERTić prilagođen na SETimes.SR (gold tokenizacija) | 0,9231 | 0,0768 | 0,9649 | 0,0351 |
BERTić prilagođen na SETimes.SR (CLASSLA tokenizator) | / | 0,0884 | / | 0,0542 |
BERTić prilagođen na COMtext.SR.legal (gold tokenizacija) | 0,9674 | 0,0326 | 0,9666 | 0,0334 |
BERTić prilagođen na COMtext.SR.legal (CLASSLA tokenizator) | / | 0,0447 | / | 0,0526 |
SrBERTa prilagođena na COMtext.SR.legal (gold tokenizacija) | 0,9288 | 0,0712 | 0,9391 | 0,0609 |
SrBERTa prilagođena na COMtext.SR.legal (CLASSLA tokenizator) | / | 0,0851 | / | 0,0819 |
Pristup | MSD ACC | MSD WER | Lemma ACC | Lemma WER |
---|---|---|---|---|
CLASSLA-SR (gold tokenizacija) | 0,9150 | 0,0850 | 0,9036 | 0,0964 |
CLASSLA-SR (CLASSLA tokenizator) | / | 0,0977 | / | 0,1135 |
CLASSLA-HR (gold tokenizacija) | 0,9062 | 0,0938 | 0,9353 | 0,0647 |
CLASSLA-HR (CLASSLA tokenizator) | / | 0,1076 | / | 0,0827 |
BERTić prilagođen na SETimes.SR (gold tokenizacija) | 0,9234 | 0,0766 | 0,9412 | 0,0588 |
BERTić prilagođen na SETimes.SR (CLASSLA tokenizator) | / | 0,0883 | / | 0,0780 |
BERTić prilagođen na COMtext.SR.legal (gold tokenizacija) | 0,9674 | 0,0326 | 0,9429 | 0,0571 |
BERTić prilagođen na COMtext.SR.legal (CLASSLA tokenizator) | / | 0,0447 | / | 0,0763 |
SrBERTa prilagođena na COMtext.SR.legal (gold tokenizacija) | 0,9300 | 0,0700 | 0,9187 | 0,0813 |
SrBERTa prilagođena na COMtext.SR.legal (CLASSLA tokenizator) | / | 0,0840 | / | 0,1024 |
Svi skupovi podataka izrađeni u okviru projekta COMtext.SR su javno dostupni pod licencom CC-BY 4.0 International. Svi kreirani modeli su javno dostupni pod licencom Apache 2.0. Stoga se i podaci i modeli mogu slobodno koristiti za bilo koje svrhe, uključujući i komercijalne, uz navođenje informacija o njihovom autorstvu.
Projekat sprovodi konzorcijum sledećih institucija:
Inovacioni centar Elektrotehničkog fakulteta u Beogradu (ICEF) je u okviru projekta COMtext.SR odgovoran za uspostavljanje i održavanje okruženja za razvoj jezičkih resursa, selekciju i pripremu domenskih tekstova za računarsku obradu, implementiranje i objavljivanje NLP/NLU modela i alata.
ReLDI centar za jezičke podatke je u okviru projekta COMtext.SR odgovoran za anotaciju tekstova uključenih u korpuse i ručnu evaluaciju kvaliteta predikcija NLP/NLU modela.
Sledeće organizacije su podržale projekat COMtext.SR:
Sajt partnera | Logo partnera |
---|---|